如同之前提到的,rETL的主要功能就是將資料倉庫內整合處理完的資料同步到其他系統、工具上。從一個MDS(現代資料棧)系統的角度上來看,等於是在傳統的三層式(原始、整合、集市)資料倉上再加上了一個新的激活層。
出自:dbt Analytics Engineering Glossary
抽象概念上來說,相對與內部業務領域和邏輯一致的集市層,激活層的目的是將資料轉換成符合外部資料模型的格式。如果資料模型比較簡單,也可以直接在數據集市層上完成而無需經過數據激活層。
或從另一個角度來看,rETL 取代了一些日常類的操作性Dashboard與資料視覺化工具的用例。處理過的資料直接傳輸和集成到內部使用者的操作工具中,而不是讓用戶在視覺化平台中查詢資料後再到個別工具平台上其進行操作。
當然,搞IT的有一句老話:垃圾進、垃圾出(Garbage In, Garbage Out)。如果倉庫裡的資料模型正確性、可靠性都還沒處理好的話,使用激活層與rETL來自動化下游資料同步會非常的危險。將大量含錯的資料傳輸到業務工具裡,覆蓋掉正確的原始資料的話,要再復原可能會非常的複雜。
對 dbt 或 data 有興趣 :wave:?歡迎加入 dbt community 到 #local-taipei 找我們,也有實體 Meetup 請到 dbt Taipei Meetup 報名參加